基于 权重 的 Apriori 算法 在 文本 统计 特征 
提取 方法 中 的 应 用 


李 昌 兵 “” 庞 崇 鹏 。” 李 美 平 
(重庆 邮电 大 学 经 济 管 理学 院 ”重庆 400065) 


摘要 : 【 目的 ] 解决 在 海量 客户 评论 信息 中 抽取 产品 特征 时 噪声 大 的 问题 。[ 方法 ] 运用 TF-IDF 和 方差 选择 的 
统计 方法 在 众多 初步 提取 出 来 的 特征 中 进行 选择 , 设置 闵 值 后 将 各 自 提取 出 来 的 特征 取 交 进行 过 滤 , 得 到 产品 
地 征集 合 , 根据 基于 矩阵 和 权重 改进 的 Apriori 算法 产生 频繁 项 集 ,， 设 定 不 同 阔 值 得 到 最 优 特征 集合 , 实现 对 用 
户 评论 中 产品 特征 的 自动 提取 。[ 结果 ] 以 手机 评论 文本 为 例 从 中 抽取 手机 类 的 产品 特征 , 根据 人 工 标注 的 183 
个 特征 和 算法 识别 出 来 的 特征 , 查 准 率 P 了 为 72.44%, 查 全 率 了 为 77.59%, 综合 值 F 为 74.93%。[ 局 限 ] 查 准 率 
偏 低 ,存在 人 工 标 注 特征 错误 的 情况 。[ 结论 ] 实验 结果 表明 , 在 用 统计 方法 和 改进 后 的 Apriori 算法 进行 特征 提 
取 时 可 以 提高 各 性 能 指标 。 
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1 引 动 化 方法 提取 产品 特征 和 观点 词 。 类 德 成 等 所 利用 半 
自动 方式 进行 人 工 定 义 ， 从 而 抽取 出 产品 评论 信息 。 

随 着 互联 网 的 普及 ,网 络 产 品评 论 数 量 飞 速 增长 ， ”Hu 等 外 抽取 出 现 频 率 大 的 名 词 及 名 词 短 语 作 为 候选 产 

很 多 企业 已 经 在 逐渐 将 重心 转移 到 数据 领域 。 通过 人  ” 品 特 征 , 通过 压缩 剪 枝 和 宛 余 剪 枝 策略 对 提取 的 频繁 
工 处 理 方式 从 这 些 产品 评论 文本 信息 中 获取 有 用 的 信 商品 特征 进行 筛选 ,再 使 用 关联 规则 控 气 识别 频繁 产 
息 越 来 越 困 难 。 因 此 , 借助 一 定 技术 手段 实现 这 一 过 。 品 特 征 。 此 方法 使 得 各 性 能 指标 有 了 较 大 提升 。 
程 变 得 尤为 重要 。 Popescu 等 上 将 产品 特征 看 作 是 产品 的 一 部 分 , 使 用 候 
产品 特征 包括 产品 属性 以 及 构成 产品 的 各 个 方 ”” 选 产品 特征 和 领域 特征 之 间 的 共 现 提取 商品 特征 ,并 
面 ， 可 使 用 户 方便 快速 地 了 解 到 产品 的 特点 。 如 功能 、 使 用 点 互信 息 PMI(Pointwise Mutual Informatiom) 表 示 
屏幕 、 图 片 、 价 格 等 手机 类 产品 特征 。 现 如 今 , 许多 ”关联 程度 ,最 终 按 关联 程度 大 小 选择 商品 特征 。 该 方 
国内 外 学 者 在 特征 挖掘 的 研究 中 已 经 取得 了 一 些 成 ” 法 提高 了 产品 特征 提取 的 准确 率 , 但 召回 率 有 所 下 
果 。Zhuang 等 "采用 人 工 或 半自动 的 方式 对 电影 中 文 。” 降 。 随 着 关联 规则 算法 Apriori 与 FP 在 数据 挖掘 和 机 
评论 领域 进行 产品 特征 提取 研究 Kobayashi 等 中 提出 。” ”器 学 习 领 域 不 断 被 应 用 ， 旨 在 挖掘 出 事物 项 之 间 的 内 
利用 产品 、 产 品 特征 和 观点 词 之 间 的 共 现 模式 的 半 自 。” 在 联系 , 这 两 种 算法 也 被 应 用 于 特征 频繁 项 集 挖 气 ， 
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并 且 取 得 了 理想 的 效果 。 然 而 采用 传统 的 Apriori 算法 
进行 特征 提取 也 存在 一 些 不 足 : 杜 思 奇 等 四 先 利用 
Apriori 算法 产生 频繁 集 再 用 TF-IDF 阅 值 进行 过 滤 ， 
准确 率 得 到 了 较 大 提升 , 但 是 使 用 Apriori 算 法 初步 产 
生 频 繁 项 集会 带 来 许多 的 非 产 品 信息 ,特别 是 在 评论 
语 料 大 的 情况 下 ,导致 性 能 指标 有 所 下 降 。 王 永 等 中 
利用 FP 增长 算法 产生 频繁 项 集 , 根据 独立 支持 度 、 频 
繁 项 名 词 非特 征 规则 及 PMI 阔 值 过 滤 技 术 对 候选 产品 
特征 进行 筛选 。 文 中 在 用 FP 算法 时 采用 最 小 支持 度 
1% 进 行 实验 , 支持 度 设置 的 越 小 , 查 全 率 也 就 会 越 高 ， 
但 是 在 产生 的 频繁 项 集中 噪声 也 就 相应 越 大 , 在 后 续 
的 工作 中 也 会 带 来 较 大 干扰 。 路 永和 等 名 综 合 分 析 特 
征 提取 方法 并 对 传统 特征 提取 流程 和 方法 进行 改进 ， 
利用 特征 池 进 行 特征 词 预选 ,再 引入 遗传 算法 对 候选 
特征 词 分 组 编码 并 提取 最 佳 特征 向 量 。 在 特征 预选 阶 
段 采用 特征 选择 方法 CHI 和 IG, 通过 比较 去 重 形成 
特征 池 。 但 是 这 样 会 造成 一 个 问题 就 是 重复 的 特征 大 
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是 在 评论 语 料 足 够 多 的 情况 下 不 利于 噪声 的 清除 ， 
中 文 产品 评论 领域 特征 提取 的 挖掘 性 能 也 有 待 进 一 
步 提 高 。 

鉴于 此 , 本 文 在 特征 预选 阶段 采用 了 特征 选择 方 
法 方差 分 析 与 TF-IDF 方法 进行 取 交 操作 形成 候选 特 
征集 合 , 然后 采用 基于 矩阵 和 权重 的 改进 Apriori 算法 
进行 频繁 项 集 挖 掘 ， 此 改进 算法 可 避免 数据 库 的 重复 
扫描 , 使 得 时 间 和 空间 的 耗费 显著 减少 ,同时 能 有 效 
的 挖掘 出 更 有 价值 的 事件 。 为 了 验证 该 方法 的 有 效 性 ， 
本 文 以 手机 类 产品 评论 为 例 进行 特征 抽取 。 
2 产品 特征 提取 流程 

在 现 有 的 许多 产品 特征 提取 方法 上 , 产品 特征 一 
般 提 取 流 程 如 图 1 所 示 。 与 前 人 研究 相 比较 ,本 文 为 
降低 噪声 数据 的 比例 , 在 对 特征 预 抽取 方法 上 进行 改 
进 , 在 特征 预 抽取 阶段 采用 基于 方差 分 析 与 TF-IDFDI 
方法 进行 特征 预选 择 , 分 别 筛选 出 排名 前 1 000 的 特 


部 分 是 重要 的 特征 ， 两 种 方法 提取 出 的 结果 中 未 重 
复 的 特征 大 部 分 为 非 重要 特征 ， 再 取 则 会 将 那些 不 
重要 的 特征 集合 进一步 扩大 。 这些 方 法 虽然 在 一 定 程 
度 上 使 得 特征 提取 方法 的 各 性 能 指标 有 所 提升 , 但 
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名 词 或 名 词 短语 
抽取 


征集 合 进行 交 操 作 。 制 定名 词 非特 征 规则 , 建立 相应 
名 词 集合 进一步 筛选 产 品 特征 ; 利用 基于 矩阵 和 权重 
的 改进 Apriori 算法 mM 设 定 最 优 阔 值 ,形成 最 终 的 产 


口 外 住人 
品 特征 集合 。 


统计 方法 取 交 
方差 选择 与 本 
非 产品 特征 规则 
过 I 


图 1 基于 统计 和 权重 的 产品 特征 提取 流程 


(1) 应 用 Python 工具 的 jieba 分 词 包 对 原始 评论 语 
料 进行 分 词 和 词性 标注 。 

(2) 根据 jieba 分 词 工具 所 使 用 的 词语 标记 符号 ， 
其 中 与 名 词 相关 的 子 集 标记 符号 有 {/n, /nr, mms, /nt mnz， 
/nl, /ng}， 再 根据 这 些 标记 符号 所 代表 的 含义 和 语法 特 
点 ， 本 文选 取 {/n} 作 为 抽取 规则 。 使 用 计算 机 程序 对 每 
一 条 评论 进行 抽取 。 

(3) 采用 方差 选择 法 和 TF-IDF 对 初步 抽取 出 来 的 
特征 进行 预选 择 , 再 分 别 选 取 排名 前 1 000 的 特征 ; 将 
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两 种 方法 抽取 出 的 特征 取 交 集 得 到 产品 特征 集合 10。 
(4) 建立 常见 中 文 频繁 项 名 词 却 非 产 品 特征 的 集 
合 , 并 从 中 文 语义 及 语法 角度 过 滤 J。 形成 特征 集合 71。 
(5) 常见 的 频繁 项 名 词 却 非 产 品 特征 主要 划 定 为 
以 下 情况 。 
QD 常见 商品 的 品牌 。 例 如 “诺基亚 ” “三星 >”、“ 西 门 子 ” 
等 名 词 。 


点 ”、“ 优 缺点 ”等 。 
图 与 产品 无 关 的 称呼 类 名 词 ， 例 如 “朋友 ”、“ 同 事 ”"“ 男 


@ 计 算 机 程序 识别 出 来 的 少量 错误 名 词 ， 例如 “高 端 ”、 
“聊天 ”、“ 海 量 ” 等 。 

加 常见 的 集合 类 名 词 , 例如 “ 群 组 ”、“ 大 家 ”等 。 

(6) 采用 基于 和 矩阵 和 权重 的 改进 Apriori 算法 设置 
最 优 阔 值 提取 最 终 特 征集 合 。 


3 方法 设计 

在 本 文 方法 中 , 为 了 在 特征 预 抽 取 阶 段 避免 特征 
维度 过 高 而 导致 噪声 数据 带 来 的 影响 ， 而 选取 方差 分 
析 与 TF-IDF 这 两 种 方法 进行 候选 特征 提取 。 方 差分 
析 适 用 于 特征 值 都 为 离散 型 的 变量 , 符合 本 文 构建 的 
数据 结构 DataDframe。 同 时 对 于 用 于 机 需 学 习 的 数据 
来 说 , 方差 大 才 有 意义 , 包含 的 信息 量 也 就 越 大 ,并 
且 通 过 实验 结果 也 可 以 看 出 , 方差 越 大 的 特征 提取 效 
果 越 优 。 而 TF-IDF 算法 则 是 通过 加 权 判 定 特征 项 对 
于 评论 语 料 的 重要 性 ， 旨 在 过 滤 常 用 词 。 比 如 在 “ 手 
机 2 “国产 ”和 “功能 ”出 现 频次 相同 情况 下 ， 明 显 “ 功 
能 ”更 为 重要 。 并 且 在 前 人 研究 中 此 算法 在 特征 提取 和 领 
域 中 也 表现 出 了 较 好 的 挖 气 性能。 同时, 针对 TF-IDF 
算法 对 文章 不 同位 置 的 词语 一 视 同仁 这 个 不 足 之 处 ， 
在 本 文中 , 评论 文本 多 为 短文 本 , 所 以 将 TF-IDF 用 于 
短文 本 特征 挖掘 也 是 行 之 有 效 的 。 实 验 结果 显示 该 方 
法 特征 提取 效果 也 较为 明显 。 

在 进行 以 上 两 种 方法 取 交 过 滤 后 , 本 文 同时 也 引 
入 一 种 在 特征 提取 领域 研究 者 尚未 采用 的 基于 矩阵 与 
权重 的 改进 Apriori 算法 。 此 改进 算法 主要 是 基于 事物 
项 的 权重 而 提出 的 ， 跟 传统 Apriori 算法 相 比 , 避免 了 
数据 库 的 重复 扫描 , 并 且 能 够 有 效 挖掘 出 潜在 且 更 有 
价值 的 事件 。 
3.1 结合 方差 分 析 与 TF-IDF 算法 

本 文 对 特征 选择 方法 PMI、TF-IDF 、TF-IWF 和 
方差 分 析 4 种 方法 进行 实验 对 比分 析 , 选取 其 中 效果 
较 好 的 TF-IDF 与 方差 分 析 两 种 方法 进行 本 文 产品 特 
征 预 抽取 。 

(1) 方差 选择 法 : 将 评论 语 料 和 特征 转 成 字典 形 
式 , 利用 key 值 构 建 数据 结构 DataDframe, 评论 语 料 
为 行 索 引 值 , 特征 为 列 索 引 值 。 行 索引 集合 为 {71, 
坊 ,，…，Tn}, 列 索 引 值 为 {41, 42, 43，…, 4,}。 其 中 避 
为 产品 评论 语 料 数 量 , n 为 特征 数量 。 用 0-1 填充 
DataDframe, 1 代表 特征 4, 在 相应 评论 语 料 7 里面, 0 


代表 特征 4 不 在 相应 评论 语 料 7, 里 面 , 再 对 每 一 列 
的 特征 求 方差 ,数据 结构 DataDframe 形 式 如 表 1 所 示 。 
表 1 数据 结构 DataDframe 


Al A; As 加 
T 0 0 1 ll 
72 0 1 0 0 
Ts 1 1 0 1 
1 1 1 1 0 0 


(2) TF-IDF 选择 法 : 用 以 评估 字 词 对 于 一 个 文件 
集 或 一 个 语料库 中 的 其 中 一 份 文件 的 重要 程度 。 在 一 
份 给 定 的 文件 里 , 词 频 (Term Frequency, TF) 指 的 是 某 
一 个 给 定 的 词语 在 该 文件 中 出 现 的 次 数 。 这 个 数字 通 
常会 被 归 一 化 , 以 防止 它 偏向 长 的 文件 。 逆 向 文件 频率 
(Inverse Document Frequency IDF) 是 一 个 词语 普遍 重 
要 性 的 度量 。 某 一 特定 词语 的 IDF, 可 以 由 总 文件 数目 
除 以 包含 该 词语 之 文件 的 数目 ， 再 将 得 到 的 结果 取 对 
数 得 到 。 某 一 特定 文件 内 的 高 词语 频率 ,以 及 该 词语 在 
整个 文件 集合 中 的 低 文件 频率 , 可 以 产生 出 高 权重 的 
TF-IDF。 因 此 , TF-IDF 倾向 于 过 滤 掉 常见 的 词语 , 保留 
重要 的 词语 。TF-IDF 的 计算 如 公式 (1)- 公 式 (3) 所 示 。 


nN... 
TF ; 重 二 (1) 
Zn, 


其 中 ，n,; 是 该 词 在 评论 语 料 d) 中 的 出 现 次 数 ; 
而 分 母 则 是 在 评论 语 料 中 所 有 字 词 的 出 现 次 数 之 和 。 


IDF, = log 站 (2) 
:sed)) 

其 中 ，|D| 是 语料库 中 的 评论 总 条 数 ; 
| :4 sd 站 是 包含 词语 的 文件 数目 ,如果 该 词语 不 在 
语料库 中 ， 就 会 导致 被 除数 为 零 , 因此 一 般 情 况 下 使 
用 t(j:i ea)) 


TF -IDF =Th, ;x IDF, (3) 
基于 以 上 两 种 方法 , 本文 在 特征 预 抽取 阶段 结合 
方差 分 析 与 TF-IDF 分 别 进行 特征 抽取 ,然后 取出 维 
度 为 1 000 的 特征 进行 取 交 操作 形成 产品 特征 集 mo。 
3.2 ”基于 和 矩阵 与 权重 的 改进 Apriori 算法 
本 文 将 基于 和 矩阵 与 权重 的 改进 Apriori 算法 应 用 
到 文本 挖掘 领域 , 通过 实验 结果 分 析 , 该 算法 使 得 本 
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文 特 征 抽取 效果 得 到 了 较 大 提升 。 算 法 设计 如 下 : 
用 评论 语 料 和 特征 集合 万 构建 0-1 矩阵 M 


CI1 012 ln 
M2= 421 422 4027 
Un Cm2 Umn 
l,a; eT; 二 
其 中 ，aj = ; 表示 第 i 条 评论 ; 二 1, 2, 3…， 
0, 01 ¢T 


m; 太 1, 2 3， 大 到 人， 万 五， … 友 表示 入 个 特征 集 
合 。 万 在 事务 数据 库 中 出 现 的 概率 为 p(7)) ,计算 如 公式 (4) 
所 示 ， 了 的 权重 记 为 w(1)) ,与 p(1)) 有 关 ，w(7)) 的 计算 如 
公式 (4)- 公 式 (5) 所 示 。 
PU7)=1/m (4) 
w(7;)=1/p(7)) (5) 
其 中 ，/ 表示 了 在 事务 集中 出 现 的 次 数 ， 即 上 述 矩 阵 中 
第 j 列 中 1 的 个 数 ,m 是 评论 语 料 的 总 条 数 。 
事务 7 指数 据 集中 的 第 条 评论 ， 其 权重 指 该 评论 中 所 
包含 的 特征 项 的 平均 权重 ， 记 为 wi(T,)， 即 对 a =1 的 所 有 
w(7)) 求 平均 值 ,其 中 j=1,2,3,…,n ,计算 如 公式 (6) 所 示 。 


jen 
wi(7T)= 2 mw/ (6) 
jal 
其 中 ，|| 表 示 评论 7T 中 包含 的 特征 项 的 个 数 。 
项 的 权重 支持 度 记 为 wsupport， 权重 支持 度 表 示 包 含 特 
征 项 的 事务 权重 占 所 有 事务 权重 的 比例 ， 再 根据 特征 项 的 
权重 支持 度 ， 设 定 合理 阀 值 形成 最 优 特征 集合 ， 计 算 如 公式 
(7) 所 示 。 


SET: m 
wsupport(S) = ba wt(7; )/ > wt(7) (7) 
k=l k=l 


其 中 ,S 表示 事务 数据 库 中 的 任意 特征 项 。 

基于 和 矩阵 和 权重 的 改进 Apriori 算法 步 又 如 下 : 

人 扫描 事务 数据 库 ， 构建 0-1 事务 和 矩阵， 并 根据 事务 拨 
阵 计 算出 每 个 特征 项 和 事务 的 权重 ， 即 w(J))，wi(Ti) 。 

@) 根 据 事务 矩阵 得 到 候选 1- 项 集 C1, 计算 Ci 中 每 个 特 
征 项 的 权重 支持 度 wsupport(S), 找 出 满足 最 小 支持 度 的 频 
繁 1- 项 集 Di。 

基于 矩阵 和 权重 的 改进 Apriori 算法 流程 图 如 图 2 
所 示 。 


Dhttp: /www.datatang.com/data/43824. 
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扫描 数据 库 。 | 


将 


构建 0-1 和 矩阵 


了 


计算 w(D), wA(7) 


L 
计算 wsupport(1) | 


产生 侯 选 集 C， 


定义 最 小 项 的 权重 支持 度 


产生 频繁 项 集 


图 2 基于 给 阵 和 权重 的 改进 Apriori 算法 流程 
3.3 ”性 能 评估 指标 
本 文采 用 查 准 率 P、 查 全 率 R 和 综合 值 F-score 
这 三 个 评估 指标 分 别 来 度量 性 能 的 某 个 方面 和 对 性 能 
的 整体 评估 。 具 体 计 算 方法 如 公式 (8)- 公 式 (10) 所 示 。 


4 
P= 8 
A+B 名 
4 
R= 9 
A+C 9) 
F-score= 2 (10) 
R+ 
其 中 , A, B, C 含义 如 表 2 所 示 。 
表 2 各 变量 含义 
产品 特征 数 算法 识别 出 来 的 算法 识别 出 来 的 
正确 特征 数 错误 特征 数 
挖掘 出 的 特征 数 A B 
没有 挖掘 出 的 特征 数 C 一 


4 ”实验 结果 及 性 能 评估 


4.1 实验 数据 

本 文 数据 集 采 用 数据 党 提供 的 手机 评论 语 料 
选取 其 中 800 条 评论 进行 实验 。 通 过 人 工 标注 的 方法 
共 得 到 上 述评 论语 料 中 的 手机 产品 特征 183 个 , 产品 
特征 集合 如 表 3 所 示 。 
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表 3 手机 产品 特征 
产品 名 称 参数 人 工 标注 特征 集合 人 工 标注 特征 数量 


外 键 ， 外 屏 ， 彩 屏 ， 机 身 ， 磨 砂 ， 键 盘 ， 外 观 ， 内 屏 ,， 方向 键 , 外观 设计 , 颜色, 手感 ， 
外 观 设计 外 壳 , 体 内 ， 重量 , 快捷 键 , 金属 , 质感 ， 机 型 外形 ,面积 ， 按键 ， 数字 键 ， 导 航 键 ， 而 
造型 ， 功 能 键 ， 机体， 材质 ， 图案 , 拨号 键 , 外表 ,数字 键盘 ,红外 接口 ， 尺寸 , 按钮， 
外 盖 ， 机 壳 
屏幕 分 辨 率 , 色彩， 屏保 , 画面 , 屏幕 ,清晰 度 , 亮度 ,屏幕 显示 ,显示 屏 , 触摸 屏 ， 画 质 ， 
动画 ,， 透明度 
功能 ， 短信， 通话 记录 , 计算 器 ,记事 本 , 程序, 联系 人 , 手写 , 信息 , 电话 , 短 消息 ， 
基本 功能 彩信 ， 闸 钟 ， 日 程 表 , 手写 输入 ， 语音 ， 软件 ， 收音机， 防火 墙 ， 通话 质量 ， EB 话 竹 ， 
录音 , 电话 号 码 ， 号码, 输入 法 , 语音 拨号 , 键盘 输入 , 通话 , 亲 铃 , 通讯 录 , 应 用 39 
程序 ,时钟 ， 背 光 灯 ,录音 器 ， 背景 灯 , 手电 简 , 备忘录 , 收 件 箱 , SIM 卡 
摄像 功能 像素, 摄像头， 彩 灯 , 图 片 ， 闪光 灯 , 照片 , 象 素 , 镜头 , 图 像 ， 照相 机 ,摄像 机 11 
手机 ”娱乐 功能 多媒体， 影音, 媒体 播放 器 , 游戏， 音频 ,播放 器 6 
数据 功能 蓝牙， 红外线 2 
手机 附件 ”耳机 , 手写 笔 , 扩 音 器 , 耳塞， 内存 卡 ,存储 卡 ， 数据 线 ， 充电 器， 防 尘 盖 ， 传 输 线 10 
美化 壁纸 ， 界 面 ， 背景 ， 菜 单 , 饱和 度 ， 主 题 6 
性 能 信号 ,响应 速度 ， 速 度 , 识别 率 , 待机 时 间 , 续航 , 性能， 处理 速度 关机， 操作 速度 ， i 


网 络 ,待机 ,反应 速度 ， 开 机 ,传输 速度 ， 速 率 , 反应 时 间 , 智能 , 输入 速度 
从 音 ,铃声 ， 音 量 ,提示 音 ， 声音， 和弦， 和 弦 铃 声 ， 音 质 ， 音 乐 ,听筒 ， 扬声器 ， 音效 ， 
短信 铃声 ,关机 闹钟 

硬件 配置 容量， 内置， 空间 ， 储 存量， 内存， 处理 器 , 电池， 硬件 ， 外 置 ,存储 量 ， 存 储 容量 ， 
均衡 器 , 电池 容量 ,储存 ,内存 容 量 , 电池 电量 ,存储 空间 ， 储 存 卡 

性 价 比 ”性价比 , 价格， 价位 , 价钱, 价值 , 零售 价 

售后 反馈 。 质量 ,客服 


4.2 实验 结果 0.80 


(1) 产品 特征 提取 结 oe 
根据 公式 (7) 计 算出 各 特征 项 的 权重 支持 度 , 并 提 ee 


取出 排 在 前 10 的 手机 特征 项 , 如 表 4 所 示 。 on 下 


表 4 手机 产品 特征 提取 结 加 
0.68 
排名 属性 wsupport 0.66 
1 功能 0.3337 0.64 
2 屏幕 0.2628 0.62 
0.01 0.012 0.013 0.0135 0.014 0.015 0.016 0.018 0.02 
效果 0.2348 权重 支持 度 
4 铃声 0.2324 令 查 准 率 P 国 查 全 率 R 综合 值 F 
5 外 观 0.2057 图 3 不 同 阅 值 下 的 性 能 变化 情况 
6 电话 0.2054 a 
i 表 5 手机 评论 挖掘 性 能 
7 短信 0.1887 
项 重 支 持 度 准 谈 谈 综合 
8 待机 0.1772 页 的 权重 支持 度 P( 查 准 率 ) ”R( 查 全 率 ) ”F( 综 合 值 ) 
es 0.01 71.35% 77.60% 74.34% 
9 声音 0.1719 
0.012 72.08% 77.59% 74.73% 
10 电池 0.1685 
0.013 72.44% 77.59% 74.93% 
对 wsupport 设置 不 同 的 国 值 ,性 能 变化 如 图 3 所 0.0135 72.30% 77.05% 74.60% 
a Pp 0 0 0, 
示 , 相应 的 性 能 指标 值 如 表 5 所 示 。 ee 0 
0.015 73.01% 75.41% 74.19% 
of H 四 和 5 2 
从 表 5 可 以 看 出 , wsupport 阔 值 为 0.013 时 , 挖掘 5 ge ee 
结果 综合 性 能 最 优 ， 即 查 准 率 达到 72.44%， 查 全 率 达 0.018 73.71% 70.49% 72.06% 
到 77.59%, 综合 值 达 到 74.93%。 0.02 74.09% 67.21% 70.48% 
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(2) 实验 结果 对 比分 析 

文献 [7] 采 用 FP 增长 算法 产生 候选 特征 集 ， 利用 
基于 网 络 搜索 引擎 的 PMI 算法 进行 最 优 特征 提取 ; 文 
献 [11] 人 工 定义 了 产品 属性 概念 模型 , 依据 此 模型 对 
中 文 产品 特征 进行 提取 ; 文献 [13] 结 合 汉语 中 名 词性 
短语 的 表达 特点 , 在 传统 Apriori 算法 基础 上 进行 名 词 
短语 扩充 , 实现 产品 特征 的 自动 提取 。 以 上 三 种 方法 
的 挖掘 性 能 都 有 一 定 提 升 。 将 本 文 方法 分 别 与 文献 [7]， 
文献 [11], 文献 [13] 进 行 比 较 , 结果 如 表 6 所 示 。 
表 6 针对 手机 评论 的 产品 特征 挖掘 结果 比较 1 


和 本 
查 准 率 72.44% 70.8% 70.72% 62.8% 
查 全 率 77.59% 73.3% 68.35% 81.8% 
综合 值 74.93% 72% 69.51% 71.05% 


通过 表 6 可 知 ， 本 文 方法 查 准 率 均 优 于 文献 [7]、 
文献 [11] 和 文献 [13]; 查 全 率 优 于 文献 [7] 和 文献 [11], 
但 低 于 文献 [13]， 由 于 文献 [13] 针 对 的 是 英文 评论 , 没 
有 绝对 的 可 比 性 , 但 是 本 文 挖掘 性 能 更 优 : 从 综合 性 
能 来 看 ， 本 文 综合 评价 指标 均 优 于 其 他 文献 。 通 过 第 
一 组 对 比 实验 可 知 , 利用 统计 方法 和 机 器 学 习 算 法 进 
行 产 品 特征 挖 气 更 有 效 。 

由 于 文献 [12] 和 文献 [4] 的 方法 在 中 文 产品 特征 提 
取 领 域 具有 一 定 代表 性 ,因此 再 将 本 文 方法 与 其 进行 
实验 结果 对 比 , 结果 如 表 7 所 示 。 

表 7 针对 手机 评论 的 产品 特征 挖掘 结果 比较 2 


性 能 指标 ” 本文 方 法 ”文献 [12] 的 方法 ”文献 [4] 的 方法 
查 准 率 72.44% 63.3% 71.8% 
查 全 率 77.59% 68.9% 76.1% 
综合 值 74.93% 66% 73.88% 


第 二 组 对 比 实验 中 ,本 文 方法 的 各 个 性 能 指标 均 
优 于 文献 [12] 和 文献 [外 的 实验 结果 。 因 此 本 文 在 保证 
一 定 查 全 率 的 情况 下 仍 得 到 了 较 好 的 查 准 率 , 再 次 表 
明了 本 文 方法 在 特征 提取 领域 的 有 效 性 。 


S 结 语 


本 文 基于 方差 选择 和 TF-IDF 算法 对 产品 特征 进 
行 预 抽取 ; 制定 名 词 非 特征 规则 对 候选 特征 进行 进 一 
步 过 滤 ; 采用 基于 和 矩阵 和 权重 的 改进 Apriori 算法 对 产 
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应 用 认 


品 特 征 进行 最 优 特征 挖掘。 实验 结果 表明 , 与 其 他 特 
征 提取 方法 相 比较 , 在 人 工 标注 的 特征 较 多 的 情况 下 ， 
本 文 方法 仍 能 保持 较 高 的 准确 率 和 查 全 率 ,说 明 本 文 
方法 是 有 效 的 。 有 效 的 产品 特征 是 用 户 做 出 购买 决策 
的 有 效 参 数 ,也 是 生产 商 和 销售 商 改 进 商品 和 服务 的 
关键 指标 , 更 是 在 许多 商业 活动 中 对 产品 推荐 起 到 了 
理想 的 作用 。 今 后 也 将 结合 更 多 机 器 学 习 算法 对 评论 
文本 中 的 情感 倾向 性 进行 相关 研究 。 
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Extracting Product Features with Weight-based Apriori Algorithm 


Li Changbing Pang Chongpeng Li Meiping 
(School of Economics and Management, Chongqing University of Posts and Telecommunications, Chongqing 400065, China) 


Abstract: [Objective] This paper aims to reduce the noises while extracting product features from customer comments. 
[Methods] We used the TF-IDF and variance selection methods to extracted the needed data. Then, we set the 
thresholds to filter the extracted words and obtain the product feature set. Third, we generated frequent item sets with 
the Apriori algorithm. Finally, we defined various thresholds to obtain the optimal sets, which automatically extracted 
product features from user comments. [Resujlts] We examined the effectiveness of the proposed method with comment 
texts on mobile phone products. Comparing the automatically extracted characteristics with the manually identified 
characteristics, we found that the precision P value was 72.44%, the recall R value was 77.59%, and the comprehensive F 
value reached 74.93%. [Limitations] The precision needs to be improved and there might be Some human errors involving 
the manually identified terms. [Conclusions] The Apriori algorithm could help us extract product features effectively. 


Keywords: Feature Extraction AprioriAlgorithm TF-IDF Variance Selection 
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